Dans le cadre des formations “Humanités numériques” EPHE-PSL

Introduction à l’encodage TEI

Enseignement : Vanessa Bigot Juloux (EPHE-PSL, Andrews University)



Sommaire

Séance du 17 avril 2019 (1)

Séance (en ligne) du 7 mai 2019 (2)

Séance du 15 mai 2019 (3)

Séance (en ligne) du 21 mai 2019 (4)

Séance du 22 mai 2019 (5)


1.I. En bref…

Voici un exemple d’ODD prêt à être modifié si nécessaire :

Dans l’exemple ci-dessus, le schéma de spécification <schemaSpec> fait référence à quatre modules qui suivent la valeur de @start “TEI” (c’est-à-dire le module TEI) et identifié par @key : “header”, “core”, “tei” et “textstructure”. On peut compléter chaque <moduleRef> par les @attributs optionnels précédemment énumérés (point 4 ci-dessus).

Lien du wiki de la TEI wiki.tei-c.org.

Complément de lecture :
Bauman, Syd, and Julia Flanders. 2018. Introduction to Writing ODDs
Bauman, Syd, and Julia Flanders. 2010. Element list for ODD.

Sommaire ⇪


2.III. Introduction à la structuration d’un schéma TEI en particulier le module [tei].

Qu’est-ce qu’un schéma TEI ?

Un schéma TEI pourrait se résumer ainsi : « […] les conventions élaborées dans le cadre du TEI visent à permettre la description de la manière dont un document a été créé ainsi que la façon dont il a été structuré : pages, paragraphes, lignes, chapitres, dialogues, soulignements, ajouts marginaux, ratures, etc. » (Source : Fabre et Marcotte3)

Il est ainsi impératif de toujours se référer aux classes de modèle pour chaque module.






[3] : Grégory Fabre et Sophie Marcotte. 2014, Pratiques de l’édition numériques, Montréal, Presses de l’Université de Montréal. (ISBN 978-2-7606-3203-5, lire en ligne), chap. 10 (« L’organisation des métadonnées »), p. 175.


3.I. Module [textstructure] : exemple pratique pour un dictionnaire

Les différents <element>s disponibles dans le module [textstructure]


Projet : dictionnaire en ligne pour les 11-13 ans

Voir la carte heuristique XMind du projet.


Exemple d’une entrée pour un lemme de type substantif :

<entryFree n="1" xml:id="pays-subst-01">
    <form type="lemma">
        <w lemma="pays">
           <w n="1" type="baseform" xml:id="pays-subst-baseF">
              <m>pays</m>
           </w>
           <w n="2" type="inflected" sameAs="#pays-subst-baseF" />
        </w>
    </form>
    <gramGrp>
       <gram value="subst"/>
       <gen value="m"/>       
     </gramGrp>
     <sense n="1" xml:id="pays-syn-01">
       <def><!-- texte de la définition sense 1 --></def>
       <xr type="syn">
          <lbl>Syn. de</lbl>
          <!-- dans le cas où ce lemme a été ajouté au dictionnaire -->
          <ref n="1" target="#terre-sense03">terre</ref>
       </xr>
     </sense>
     <sense n="2" xml:id="pays-syn-02">
       <def><!-- texte de la définition sense 2 --></def>
       <xr type="syn">
          <lbl>Syn. de</lbl>
          <!-- dans le cas où ces deux lemmes ont été ajoutés au dictionnaire -->
          <ref n="1" target="#endroit-sense02">endroit</ref>
          <ref n="2" target="#lieu-sense01">lieu</ref>
       </xr>
     </sense>
</entryFree>

Liste des <element>s pour la dictionnaire membre des modules [dictionaries], [analysis] et [core] et entre paranthèse les modèles de classes — classement hiérarchique (la descendance est indiquée par “/” et les <element>s de même niveau par “||”) :

Liste des @attributs par classe d’attributs



Complément de lecture :
Gerhard Budin, Stefan Majewski and Karlheinz Mörth, « Creating Lexical Resources in TEI P5 », Journal of the Text Encoding Initiative [Online], Issue 3 | November 2012. URL : http://journals.openedition.org/jtei/522 ; DOI : 10.4000/jtei.522.


[4] cet element a été retenu d’une part pour plus de flexibilité par rapport à entry qui suit un schéma défini, mais surtout parce qu’il autorise 30 <element>s en comparaison avec <entry> qui n’en autorise que 10.


4.I. Arborescence d’un document TEI, brève introduction à XPath.5

Qu’est-ce que XPath ?

Créé en 1999, XML Path Language (abr. XPath) suit les recommandations du W3C ; la version courante est 3.1. XPath est un langage de requête de XSLT ou XML Query Language, abr. XQuery. Il est utilisé dans un fichier XLST (ou XML Pointer Language, abr. XPointer) pour accéder à une partie du contenu, appelé node (fr. nœud) dans un document TEI (ou XML et JSON), selon un chemin (Path) précis. Ce chemin peut être comparé à une relation pour naviguer dans une arborescence ou un arbre généalogique ; il existe deux types de chemins, (1) absolu et (2) relatif.

XPath est indispensable pour manipuler et/ou afficher les informations désirées grâce à XSLT.

Les nœuds :

Un document TEI (XML) contient 7 types de nœuds.

  1. nœud racine
  2. nœuds d’<element>s — contient automatiquement un nom expansé (expanded-name)
  3. nœuds d’@attributs
  4. nœuds de texte
  5. nœuds d’espace de noms (namespace)
  6. nœuds d’instuction de traitement
  7. nœuds commentaire

Les chemins :

Une étape de localisation peut contenir 3 informations, séparées par / : un axe, un nœud de test et 0 ou n prédicats (option).

Les sélecteurs :

Note 1 : l’opérateur de chemin / sert généralement à trouver un node dans une arborescence TEI.
Note 2 : les deux points répétés deux fois :: indique la séparation du chemin des nœuds avec des axes. Toutefois, on peut faire l’économie de :: en utilisant l’opérateur de chemin //child::entryFree/child::w/attribute::lemma <=> /entryFree/w/@lemma

Sémantique et syntaxe

Un chemin dans une arborescence TEI peut schématiquement être symbolisé par un axe sur lequel on se déplace en avant ou en arrière — il se lit de gauche à droite. Le déplacement s’effectue entre le nœud courant (appelé également le nœud contextuel) et les nœuds sélectionnés. L’axe indique la direction à suivre ; il existe 13 axes :

Note : il existe des syntaxes abrégées (voir le cours de Peter Stokes), ex. self::node() = .

Pour aller un peu plus loin, les précisions optionnelles :

Pour aller plus loin, voir la liste des fonctions XPath — critères de sélection : de type sum(), count(), substring(), string-length(), concat(), etc.

Liens utiles


[5] Les exemples ci-dessous seront complétés en fonction des travaux pratiques.


4.II. Module [linking] pour les liens hypertextuels


Vanessa Bigot Juloux (EPHE-PSL, Andrews University)